Caractéristiques des data-scientists en 2020

Introduction

Définition

La Data Science est la science des données. C’est la discipline qui permet à une entreprise d’explorer et d’analyser les données brutes pour les transformer en informations précieuses permettant de résoudre les problèmes de l’entreprise.

Quels sont les caractéristiques des data-scientists que nous étudierons?

  1. Informations générales :
    • Genre
    • Age
    • Lieu de travail
  2. Formations et salaire :
    • Quel est le niveau de formation des data-scientists ?
    • Combien gagnent-ils annuellement ?
    • Comparaison du salaire moyen annuel entre homme et femme
  3. Les outils informatiques
    • Langages informatiques
    • IDE

1. Informations générales

- Genre

Les réponses obtenues pour cette question sont réparties comme suit :

Man est le genre le plus represénté dans cet échantillon.

- Age

L’âge des data scientists se situe entre 18 et 75 ans. Quant à la moyenne, elle est de 33 . La boîte à moustache ci-dessous permet de visualer ces différents résultats :

- Lieu de travail

La Data science s’est étendue sur tous les continents. La carte ci-dessous montre la présence des data scientists dans le monde :

2. Formation et salaire

- Niveau de formation

Ce diagramme en bâton montre le niveau de formation des data-scientists :

Dans cet échantillon, le niveau de formation au plus haut effectif est : le Master’s degree

- Salaire

Le salaire des data-scientists varie entre 503 et 733201 dollars. Pour visualiser le salaire des data-scientist, nous avons réalisé un histogramme avec 11 classes.

- Comparaison du salaire moyen annuel entre homme et femme en fonction du niveau
Niveau Nombre d’hommes Nombre de femmes Salaire moyen Salaire moyen homme Salaire moyen femme
Bachelor’s degree 539 97 40300 41100 26200
Doctoral degree 369 79 86100 89900 68400
High School Diploma 14 0 18700 20200 NaN
Master’s degree 1122 229 53500 54900 43200
Professiol degree 69 16 53500 49600 61000
Some college/university study without earning a Bachelor’s degree 50 13 25800 29300 8300

3. Les outils informatiques

L’évolution et l’importance croissantes de l’analyse de données conduisent les data-scientists à utiliser des outils informatiques pointus qui sont présentés dans cette partie.

- Langages de programmation les plus utilisés
Classement des langages de programmation
Langages Effectif
1 Python 2453
2 SQL 1473
3 R 975
5 C++ 323
6 JAVA 305
4 C 247
- Environnement de développement les plus populaires
Classement des environnements de développement
IDE Effectif
1 Jupyter 1918
4 PyCharm 1851
3 VScode 860
2 Rstudio 814

Source des données : 2020 Kaggle Machine Learning & Data Science Survey